INTRODUCCIÓN

Qué es la Estadística

Es una ciencia que transforma, mediante métodos matemáticos, datos en información para la toma de decisiones (ine.cl).


Bioestadística: El estudio científico de los datos numéricos basado en hechos naturales (Sokal y Rohlf 1987).

Alcances

Ayuda a conocer y entender poblaciones (muchos individuos). Ayuda a conocer relaciones complejas entre muchas variables Ayuda a formular y resolver preguntas de investigación que involucre un gran número de casos. Ayuda a conocer, describir y predecir fenómenos que ocurren muchas veces.

Limitaciones de la estadística

  • Trata con poblaciones y establece afirmaciones sobre sus parámetros -> no trata con individuos concretos.
  • Sus resultados no son absolutamente ciertos, son probabilísticos. Por lo tanto, las afirmaciones son probabilísticas.
  • No explica fenómenos ni establece relaciones causales, sino solo asociaciones entre variables.
  • ESQUEMA DE INVESTIGACIÓN

    ESQUEMA DE ESTADÍSTICA

    Problema de investigación

  • Definirá todos los pasos siguientes: objetivos, hipótesis, universo, muestra, tipo de análisis.
  • Plantearse el problema de investigación no es elegir un tema. El planteamiento debe ser específico en términos concretos y explícitos, de modo que sea susceptible de ser investigado mediante técnicas cuantitativas. Delimitar es la esencia de los planteamientos cuantitativos. Describir tendencias y patrones, evaluar variaciones, identificar diferencias, medir resultados y probar teorías.
  • CONCEPTOS BÁSICOS

    Observación Información obtenida a partir de una observación o medición de la unidad más mínima de la muestra (individuos, instituciones, marcas o modelos, países, etc.). Modelos longitudinales, medición en el tiempo
    Variable Grupo o set de observaciones o mediciones. TIENE QUE VARIAR
    Población o universo Totalidad de las observaciones individuales sobre las cuales se quiere realizar inferencias
    Muestra Colección de observaciones seleccionada de una manera específica
    Función Relación entre una serie de entradas y un set de salidas permitidas con la propiedad de que cada entrada está relacionada exactamente con cada salida. http://fooplot.com/

    CONCEPTOS BÁSICOS … continuación

    Parámetro Valor referido a una población. Número que resume o caracteriza a una población o una distribución de probabilidades
    Estimador muestral del parámetro Función con el propósito de estimar un parámetro dentro de una muestra. Pueden ser puntuales o intervalos
    Distribución de probabilidades Función que asigna la probabilidad de ocurrencia de un evento. Modelo matemático.

    Características de las variables

    Variables continuas: poseen valores de carácter infinitesimal. Entre dos valores siempre puede existir un valor intermedio. Toma valores a lo largo de un continuo. Números racionales e irracionales.

    Variables discretas: No acepta valores intermedios entre dos valores contiguos. Números enteros.

    Categóricas nominales: Los valores no representan un continuo discretizado, sino tipos. Marca de auto, religión, sexo, género, etc.

    Categóricas ordinales: parecidas a las nominales, pero tienen una relación de jerarquía entre las categorías, por ejemplo: Estratos Socioeconómicos, Niveles Educativos, Rangos militares, Ranking Deportivo, etc

    Muestra

    conjunto de observaciones. Una muestra pertenece a un universo

    Idealmente la muestra debe ser aleatoria, así se evita sesgo y puede representar el universo

    Parámetro

    Valor referido a una población

    Número que resume o caracteriza a una población o una distribución de probabilidades.

    OTROS CONCEPTOS BÁSICOS

    Dato Registro de una “observación” realizada a elementos, cosas o personas, conforme a las variables definidas
    Codificación Es el proceso por el cual los datos (cuantitativos o cualitativos), son convertidos en símbolos (básicamente numéricos), según unas determinadas reglas o escalas

    PARA QUÉ SIRVE LA CODIFICACIÓN DE LOS DATOS

    ELABORACIÓN DE BASES DE DATOS

    BASES DE DATOS
    Es un conjunto de datos agrupados en diferentes variables y pertenecientes a un mismo contexto de investigación almacenados u organizados sistemáticamente en forma de filas y columnas, para posteriores análisis estadísticos por medios informáticos

    ELABORACIÓN DE BASES DE DATOS … continuación

    TIPOS DE BASES DE DATOS

    Las bases de datos pueden clasificarse de varias maneras, de acuerdo al criterio elegido para su clasificación:

    Según la variabilidad de los datos almacenados

  • Bases de datos estáticas
  • Bases de datos dinámicas

  • Según el contenido

  • Bases de datos Educativas
  • Bases de datos comerciales
  • Bases de datos evaluación de desempeño
  • Bases de datos de información de Mercadeo
  • Bases de datos de información social / Antropología
  • Bases de datos de información ventas/inventario
  • Bases de Datos con información no estructurada (texto, imágenes, audios, etc)
  • ELABORACIÓN DE BASES DE DATOS

    CARACTERISTICAS DE LAS BASES DE DATOS


  • Visualización de los registros -> Consulta

  • Edición de los registros -> (eliminar o modificar)

  • Nuevas entradas -> agregar nuevos registros

  • Filtrar registros por uno o varios criterios condicionales

  • Acceso rápido a la información

  • Generar relación entre los registros
  • RECURSOS INFORMÁTICOS

    para hacer análisis estadístico de bases de datos

    En este curso/taller nos enfocaremos en el uso de programa R

    UN POCO DE HISTORIA DE R

  • En 1991 en el Departamento de Estadística de la Universidad de Auckland en Nueva Zelanda, Ross Ihaka y Robert Gentleman inician el desarrollo de R como una versión de S, que era un programa pago para analisis estadístico (hoy en día se conoce como S-Plus).
  • El nombre de R es debido a la primera letra de sus creadores Ross y Robert.
  • El programa R tuvo una versión inicial del lenguaje en 1995 y en el 2000 una versión final estable.
  • El programa usa la Licencia Publica General GNU haciendo a R como software libre.
  • Como vimos R es reciente, tiene poco más de 20 años desde su primera versión y es debido a la licencia GNU, que hoy en día sea el lenguaje más utilizado en investigación por la comunidad estadística, siendo además muy popular en el campo de la investigación biomédica, la bioinformática y la economía.

    Uso del paquete estadístico R

  • BENEFICIOS

  • ES GRATIS
  • Es el más versátil de todos los paquetes estadísticos (se puede trabajar en muchas áreas sin limitaciones)
  • Se adapta a las necesidades y complejidad de los análisis
  • Los gráficos son una maravilla
  • Existen 38.634.898 foros, páginas web, libros, etc. para ayudarte
  • LIMITACIONES

  • Es complicado en un principio. Requiere paciencia.
  • Hay que estar bajando constantemente diferentes paquetes para realizar diferentes análisis
  • Instalación del paquete estadístico R

    Administración de datos

    There is an old rule of thumb that says 80% of your data analysis time is spent transforming, reshaping, merging, and otherwise managing your data.




    “Hay una vieja regla general que dice que el 80% de su tiempo de análisis de datos se dedica a transformar, remodelar, fusionar y administrar sus datos”.